Mathematical এবং Statistical Operations ডেটা বিশ্লেষণ এবং ডেটা সায়েন্সে অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে। এগুলি ডেটার মূল বৈশিষ্ট্য বোঝার জন্য ব্যবহৃত হয় এবং ডেটা থেকে অন্তর্দৃষ্টি লাভ করতে সহায়ক। Python-এ, এগুলি গণনা করতে NumPy এবং Pandas এর মতো লাইব্রেরি ব্যবহার করা হয়। এখানে আমরা Mean, Median, এবং Standard Deviation এর সংজ্ঞা এবং এগুলির গণনা প্রক্রিয়া ব্যাখ্যা করবো।
১. Mean (গড়)
Mean, যা Arithmetic Mean নামে পরিচিত, একটি পরিসংখ্যানিক পরিমাপ যা ডেটার একটি সেগমেন্ট বা পুরো স্যাম্পল বা পপুলেশনের গড় মান বের করে। এটি সমস্ত ডেটা পয়েন্টের যোগফল এবং পয়েন্টগুলির সংখ্যা দিয়ে ভাগ করার মাধ্যমে হিসাব করা হয়।
গণনা সূত্র:
যেখানে:
- হলো ডেটা পয়েন্ট,
- হলো ডেটা পয়েন্টের মোট সংখ্যা।
উদাহরণ: ডেটা পয়েন্ট:
গণনা:
২. Median (মধ্যক)
Median হলো একটি পরিসংখ্যানিক পরিমাপ যা ডেটা সেটের মধ্যবর্তী মান নির্দেশ করে। যদি ডেটা সেটে একটি সরল সংখ্যা থাকে, তবে সেই সংখ্যা হল মিডিয়ান, এবং যদি সেটে দুটি সংখ্যা থাকে, তবে তাদের গড় মিডিয়ান হবে।
গণনা প্রক্রিয়া:
- যদি ডেটা সেটের সংখ্যা বিসমিলায় (odd), তবে মিডিয়ান হলো সেন্টার ভ্যালু।
- যদি ডেটা সেটের সংখ্যা জোড় (even), তবে মিডিয়ান হলো দুটি মাঝের সংখ্যার গড়।
উদাহরণ ১ (বিসমিলায় সংখ্যা): ডেটা পয়েন্ট:
গণনা: মিডিয়ান (মাঝের সংখ্যা)
উদাহরণ ২ (জোড় সংখ্যা): ডেটা পয়েন্ট:
গণনা: মিডিয়ান
৩. Standard Deviation (মানক বিচ্যুতি)
Standard Deviation একটি পরিসংখ্যানিক পরিমাপ যা ডেটা পয়েন্টগুলির গড় থেকে কতটা বিচ্যুত তা পরিমাপ করে। এটি ডেটার বৈচিত্র্য বা পরিবর্তনশীলতার একটি মাপ। ছোট মানের মানক বিচ্যুতি নির্দেশ করে যে ডেটা পয়েন্টগুলি গড়ের কাছাকাছি অবস্থান করছে, এবং বড় মানের মানক বিচ্যুতি নির্দেশ করে যে ডেটা পয়েন্টগুলি গড় থেকে অনেক দূরে সরে গেছে।
গণনা সূত্র:
যেখানে:
- হলো প্রতিটি ডেটা পয়েন্ট,
- হলো গড় (Mean),
- হলো ডেটা পয়েন্টের সংখ্যা।
উদাহরণ: ডেটা পয়েন্ট:
প্রথমে গড় (Mean) বের করুন:
প্রতিটি পয়েন্টের গড় থেকে বিচ্যুতি বের করুন এবং স্কোয়ার করুন:
স্কোয়ারগুলি যোগ করুন:
স্কোয়ারগুলির যোগফলকে দ্বারা ভাগ করুন (এখানে ):
এরপরে স্কোয়ার রুট বের করুন:
তাহলে, মানক বিচ্যুতি হলো 7.07।
Python-এ Mean, Median, এবং Standard Deviation হিসাব করা
Python-এ এই পরিসংখ্যানিক পরিমাপগুলি NumPy লাইব্রেরি ব্যবহার করে খুব সহজে হিসাব করা যায়।
উদাহরণ:
import numpy as np
# ডেটা পয়েন্ট
data = np.array([5, 10, 15, 20, 25])
# Mean (গড়) হিসাব
mean = np.mean(data)
print("Mean:", mean)
# Median (মধ্যক) হিসাব
median = np.median(data)
print("Median:", median)
# Standard Deviation (মানক বিচ্যুতি) হিসাব
std_dev = np.std(data)
print("Standard Deviation:", std_dev)
আউটপুট:
Mean: 15.0
Median: 15.0
Standard Deviation: 7.071067811870354
সারাংশ
- Mean (গড়) ডেটা সেটের গড় মান নির্দেশ করে, যা সমস্ত পয়েন্টের যোগফল এবং পয়েন্টের সংখ্যা দিয়ে হিসাব করা হয়।
- Median (মধ্যক) ডেটা সেটের মাঝের মান, যা পয়েন্টগুলিকে ক্রমবর্ধমান বা ক্রমহ্রাসমান করে সাজানোর পর নির্ধারিত হয়।
- Standard Deviation (মানক বিচ্যুতি) ডেটার গড় থেকে পয়েন্টগুলির বিচ্যুতি পরিমাপ করে এবং ডেটার বৈচিত্র্য বা ছড়িয়ে পড়া বুঝতে সহায়ক।
Python-এ NumPy ব্যবহার করে এগুলির গণনা খুবই সহজ এবং কার্যকরী।
Read more